iT邦幫忙

2023 iThome 鐵人賽

DAY 28
0
AI & Data

深度學習概念和應用(PyTorch)系列 第 28

DAY28 鐵達尼生存預測-資料集

  • 分享至 

  • xImage
  •  

從kaggle下載資料集之後,可以直接
import需要的套件

df = pd.read_csv('/titanic_data.csv')

載入資料集

df.head()

https://ithelp.ithome.com.tw/upload/images/20231013/201631874xJ9MqxA6z.png
可以看到資料及包含名字、船票等級、是否生存、性別、年齡、上同為兄弟姐妹或配偶的數目、同為家族的父母及小孩的數目、船票編號、價格、登船港口

df.isnull().sum()

https://ithelp.ithome.com.tw/upload/images/20231013/20163187GK7PuQslnF.png
可以看到有哪些資料是有缺漏的,其中年齡和票價是最多缺漏的

在資料前處理的部分,可以刪除不需要的欄位、處理遺失資料,也可以用DAY7的方法將登船港口改為one-hot編碼
如下圖
https://ithelp.ithome.com.tw/upload/images/20231013/20163187dY70GbEVYD.png
再將處理好的資料分割為訓練及測試資料及就完成資料前處理了


上一篇
DAY27 kaggle-鐵達尼生存預測1
下一篇
DAY29 鐵達尼生存預測-資料分析
系列文
深度學習概念和應用(PyTorch)30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言